***Importar os dados da planilha resumo constante no arquivo EXCELMQAKA2021.xlsx

*A Variável Garantia é uma variável "qualitativa" e será necessário criar a variável dummy onde é atribuída 0 ou 1 a cada condição prevista (com garantia = 0; sem garantia=1)
xi i.Garantia i.Covid

*Conferindo a distribuição da variável dummy em suas gategorias
tab Garantia _IGarantia_2
tab Covid _ICovid_2

*Conhecendo as caracteristicas do banco de dados
describe
*Estatística descritiva dos dados utilizados
tabstat ValorFaturado  EquipeDireção EquipeLaboratório EquipePatio EquipeExterna EquipeBomba, statistics( mean sd min max )

*Uma matriz de correlações tambem pode ser considerada na *análise prévia (nivel significancia <0.05 identificado com *)
pwcorr ValorFaturado _ICovid_2 _IGarantia_2 EquipeDireção EquipeLaboratório EquipePatio EquipeExterna EquipeBomba, star (0.05)

*Estimar 1º modelo de regressão 
reg ValorFaturado _ICovid_2 _IGarantia_2 EquipeDireção EquipeLaboratório EquipePatio EquipeExterna EquipeBomba

*Transformação logarítmica na variável ValorFaturado
gen InValorFaturado=ln( ValorFaturado)

*Estimar 2º modelo de regressão com a variavel logarítmica
reg InValorFaturado _ICovid_2 _IGarantia_2 EquipeDireção EquipeLaboratório EquipePatio EquipeExterna EquipeBomba



*Estimar 3º modelo de regressão, usando o procedimento Stepwise para excluir as variáveis explicatívas que não se mostrarem diferente de zero ao  nível de significancia de 5%
stepwise, pr(0.05): reg InValorFaturado  _IGarantia_2 EquipeDireção EquipeLaboratório EquipePatio EquipeExterna EquipeBomba _ICovid_2

**Análise para identificar presença de valores influentes e corrigir, se for o caso*

*Criar a variavel com os valores previstos
predict yhat
*Gerar as distancias de leverage para cada observação
predict lev, leverage
*Gráfico com a distancia de leverage
lvr2plot, mlabel ( MêsAnoQuinzena )
* Criar a variável com os valores dos residuos
predict Resíduos, res
* Gerar um gráfico que permite visualizar a distribuição dos termos de erros gerados com a variável resíduos
kdensity Resíduos, normal
graph box Resíduos

**Ao constatar a presença de outlier usar o procedimento winsorização a 2% para variável dependente anteriormente logaritmizada
winsor InValorFaturado, gen ( InValorFaturadoW) p(0.02)

*Rodar 4º modelo de regressão considerando todas as transformaçoes realizadas até aqui
stepwise, pr(0.05): reg InValorFaturadoW  _IGarantia_2 EquipeDireção EquipeLaboratório EquipePatio EquipeExterna EquipeBomba _ICovid_2

**Análise para confirmar a correção dos valores influentes*
*Distancia de leverage após aplicar a winsorização.
lvr2plot, mlabel ( MêsAnoQuinzena )
*Criar a variavel Residuos após a winsorização
predict ResíduosW, res
* Gerar um gráfico que permite visualizar a distribuição dos termos de erros gerados com a variável ResíduosW
kdensity ResíduosW, normal
graph box ResíduosW

*****Análise de Pressupostos da técnica******

*Deverá ser feita após definir o modelo final
*1º Pressuposto - Verificar a inexistência de multicolinearidade das variáveis explicativas.
estat vif

*2º Pressuposto - Omissão de variáveis
ovtest

*3º Pressuposto - Verificar ausência de heterocedasticidade
*Inicialmente com o gráfico 
rvfplot, yline(0)
*Em seguida usaremos o teste Breusch-Pagan
hettest

*4º Pressuposto - Verificar a normalidade dos Resíduos com o teste de normalidade Shapiro-Francia 
sfrancia ResíduosW

*5º Pressuposto - Detectar existência de problemas de especificação pela omissão de variáveis. 
linktest
